Авторы |
Алан Казанферович Алимурадов, андидат технических наук, доцент кафедры радиотехники и радиоэлектронных систем, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), alansapfir@yandex.ru
Александр Юрьевич Тычков, доктор технических наук, заведующий кафедрой радиотехники и радиоэлектронных систем, заместитель директора научно-исследовательского института фундаментальных и прикладных исследований, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), tychkov-a@mail.ru
Петр Павлович Чураков, доктор технических наук, профессор, профессор кафедры информационно- измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), churakov-pp@mail.ru
Алексей Викторович Агейкин, ассистент кафедры микробиологии, эпидемиологии и инфекционных болезней, Медицинский институт, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), ageykinav@yandex.ru
Андрей Викторович Кузьмин, доктор технических наук, доцент, профессор кафедры информационно- вычислительных систем, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), a.v.kuzmin@pnzgu.ru
Максим Александрович Митрохин, доктор технических наук, доцент, заведующий кафедрой вычислительной техники, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), mmax83@mail.ru
Игорь Алексеевич Чернов, студент, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40, igorchernov999@mail.ru
|
Аннотация |
Актуальность и цели. Сегментация речь/пауза является одной из важнейших задач обработки в речевых приложениях и представляет собой точное обнаружение границ начала и окончания вокализованной, невокализованной речи и пауз. Особенно это важно при анализе скорости, ускорения и энтропии распределения вокализованных, невокализованных участков речи и пауз, а также при анализе средней продолжительности пауз. Целью работы является повышение эффективности сегментации речь/пауза на основе метода декомпозиции на эмпирические моды. Материалы и методы. В работе использовалась уникальная технология адаптивного разложения нестационарных сигналов – улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом. Программная реализация способа была выполнена в среде математического моделирования © Matlab (MathWorks). Результаты. Разработан способ, основанный на применении декомпозиции на этапе предварительной обработки исходных речевых сигналов для формирования набора новых исследуемых сигналов, содержащих максимально достоверную информацию о границах начала и окончания участков вокализованной, невокализованной речи и пауз. Проведено исследование, в рамках которого оценивалось влияние метода декомпозиции и длительности исследуемых фрагментов сигналов на эффективность сегментации речь/пауза. Для сегментации использовались способы, основанные на анализе количества пересечения сигнала через нулевую ось, кратковременной энергии, а также на основе анализа одномерного расстояния Махаланобиса. Выводы. В соответствии с результатами исследований выявлено, что предложенный способ обеспечивает повышение эффективности сегментации участков вокализованной и невокализованной речи: для способа на основе анализа количества пересечения сигнала через нулевую ось – на 13,96 %; для способа на основе анализа кратковременной энергии – на 8,24 %; для способа на основе совместного анализа количества пересечения и кратковременной энергии – на 5,72 %; для способа на основе анализа одномерного расстояния Махаланобиса – на 17,85 %.
|
Список литературы |
1. Martin A., Charlet D., Mauuary L. Robust speech/non-speech detection using LDA applied to MFCC // 2001 IEEE International Conference on Acoustics, Speech, and
Signal Processing. Proceedings (Cat. No.01CH37221) (ICASSP2001) (May 7–11, 2001). Salt Lake City, UT, USA. Vol. 1. P. 237–240.
2. Hlavnička J., Čmejla R., Tykalová T., Šonka K., Růžička E., Rusz J. Automated analysis of connected speech reveals early biomarkers of Parkinson’s disease in patients with rapid eye movement sleep behaviour disorder // Scientific Reports. 2017. Vol. 7 (12). 13 p.
3. Atal B., Rabiner L. R. A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition // IEEE Trans. Acoust. Speech
Signal Process. 1976. Vol. 24, № 3. P. 201–212.
4. Huang, X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. New Jersey : Prentice Hall, 2001. 980 p.
5. Childers D. G., Hand M., Larar J. M. Silent and voiced/unvoied/ mixed excitation (fourway), classification of speech // IEEE Transaction on ASSP. 1989. Vol. 37, № 11. P. 1771–1774.
6. Duda R. O., Hart P. E., Strok D. G. Pattern Classification. 2nd ed. New Jersey : A Wiley-Interscience Publ. John Wiley & Sons, Inc., 2001. 688 p.
7. Алимурадов А. К., Тычков А. Ю., Чураков П. П., Султанов Б. В. Способ определения формантной разборчивости речи для оценки психоэмоционального состояния операторов систем управления с высокой степенью ответственности // Измерение. Мониторинг. Управление. Контроль. 2019. № 4 (30). С. 58–69.
8. Алимурадов А. К., Тычков А. Ю., Чураков П. П., Артамонов Д. В. Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека // Известия высших учебных заведений. Поволжский регион. Технические науки. 2019. № 3 (51). С. 3–16.
9. Алимурадов А. К., Тычков А. Ю., Чураков П. П. Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов // Вестник Пензенского государственного университета. 2018. № 2. С. 89–95.
10. Huang, N. E., Zheng Sh., Steven R. L. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis // Proceedings of the Royal Society of London. 1998. A 454. P. 903–995.
11. Zhaohua W., Huang N. E. Ensemble empirical mode decomposition: A noise-assisted data analysis method // Advances in Adaptive Data Analysis. 2009. № 1 (1). P. 1–41.
12. Yeh J.-R., Shieh J.-S., Huang N. E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method // Advances in Adaptive
Data Analysis. 2010. № 2 (2). P. 135–156.
13. Torres M. E., Colominas M. A., Schlotthauer G., Flandrin P. A complete Ensemble Empirical Mode decomposition with adaptive noise // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP-11) (May 22–27, 2011). Prague, Czech Republic, 2011. P. 4144–4147.
14. Colominasa M. A., Schlotthauera G., Torres M. E. Improved complete ensemble EMD: a suitable tool for biomedical signal processing // Biomed. Signal Proces. 2014. Vol. 14. P. 19–29.
15. Greenwood M. A., Kinghorn A. SUVing: automatic silence/unvoiced/voiced classification of speech // Undergraduate Coursework, Department of Computer Science, The University of Sheffield, UK, 1999. 4 p.
16. Saha G., Chakroborty S., Senapat S. A new silence removal and endpoint detection algorithm for speech and speaker recognition applications // Eleventh National
Conference on Communications (NCC-2005) (Jan. 28–30, 2005). Kharagpur, India, 2005. P. 51–61.
17. Алимурадов А. К., Фокина Е. А., Журина А. Е. Исследование влияния длительности анализируемых речевых сигналов на частотно-избирательные свойства декомпозиции на эмпирические моды // Новые информационные технологии и системы : сб. науч. ст. XVI Междунар. науч.-техн. конф. (г. Пенза, 27 – 29 ноября 2019 г.). Пенза : Изд-во ПГУ, 2019. С. 201–205.
18. Alimuradov A. K., Churakov P. P., Tychkov A. Yu., Artemov I. I., Kuzmin A. V. Improvement of the Efficiency of Voice Control Based on the Complementary Ensemble Empirical Mode Decomposition // 2016 International Siberian Conference on Control and Communications (SIBCON 2016) (May 12–14, 2016). Moscow, Russia, 2016. 6 p.
19. National University of Entre Ríos. The Laboratory of Signals and Nonlinear Dynamics, Faculty of Engineering. URL: http://www.bioingenieria.edu.ar/grupos/ldnlys. (дата обращения: 01.05.2021).
|